Talking face generation aims at generating photo-realistic video portraits of a target person driven by input audio. Due to its nature of one-to-many mapping from the input audio to the output video (e.g., one speech content may have multiple feasible visual appearances), learning a deterministic mapping like previous works brings ambiguity during training, and thus causes inferior visual results. Although this one-to-many mapping could be alleviated in part by a two-stage framework (i.e., an audio-to-expression model followed by a neural-rendering model), it is still insufficient since the prediction is produced without enough information (e.g., emotions, wrinkles, etc.). In this paper, we propose MemFace to complement the missing information with an implicit memory and an explicit memory that follow the sense of the two stages respectively. More specifically, the implicit memory is employed in the audio-to-expression model to capture high-level semantics in the audio-expression shared space, while the explicit memory is employed in the neural-rendering model to help synthesize pixel-level details. Our experimental results show that our proposed MemFace surpasses all the state-of-the-art results across multiple scenarios consistently and significantly.
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
基于空间的重力波(GW)检测器将能够观察到来自当前基于地面检测的来源几乎不可能的信号。因此,建立的信号检测方法(匹配的过滤)将需要一个复杂的模板库,从而导致计算成本在实践中过于昂贵。在这里,我们为所有空间GW来源开发了高准确的GW信号检测和提取方法。作为概念的证明,我们表明,科学驱动和统一的多阶段深神经网络可以识别出浸入高斯噪声中的合成信号。与目标信号相比,我们的方法具有超过99%的信号检测准确性,同时获得至少95%的相似性。我们进一步证明了几种扩展场景的解释性和强烈的概括行为。
translated by 谷歌翻译
机器的图像编码(ICM)旨在压缩图像进行AI任务分析,而不是满足人类的看法。学习一种既是一般(用于AI任务)的特征,也是紧凑的(用于压缩)的功能,这对于其成功而言至关重要。在本文中,我们试图通过学习通用功能,同时考虑压缩来开发ICM框架。我们将诸如无所不能功能和相应框架的功能命名为Omni-ICM。考虑到自我监督学习(SSL)提高了特征的概括,我们将其与压缩任务集成到OMNI-ICM框架中,以学习无所不能的功能。但是,在SSL中协调语义建模并在压缩中删除冗余是不平凡的,因此我们通过合作实例区分和熵最小化以自适应掉落的信息来设计新颖的信息过滤(如果)模块,以较弱相关的信息执行AI任务(例如,某些纹理冗余)。与以前的特定解决方案不同,Omni-ICM可以直接基于学习的无能功能的AI任务分析,而无需联合培训或额外的转换。尽管简单而直观,但Omni-ICM在多个基本愿景任务上大大优于现有的传统和基于学习的编解码器。
translated by 谷歌翻译
良好的初始化对于训练深神网络(DNN)至关重要。通常,通过试验和误差方法可以发现这种初始化,每当架构经过实质性修改或从较小尺寸的网络中继承而导致次优初始化时,必须重新应用。在这项工作中,我们介绍了一种新的便宜算法,该算法使人们可以自动找到一个良好的初始化,以供一般的前馈DNN。该算法利用相邻网络块之间的雅各比式将网络超参数调整为关键性。我们解决了具有Relu的完全连接的网络的算法的动力学,并得出了其收敛条件。然后,我们将讨论扩展到具有BatchNorm和剩余连接的更通用体系结构。最后,我们将方法应用于RESMLP和VGG体系结构,在该架构中,我们的方法发现的自动单次初始化在视觉任务上显示出良好的性能。
translated by 谷歌翻译
深度神经网络对于违抗理论治疗是臭名昭着的。然而,当每个层中的参数的数量倾向于无穷大时,网络功能是高斯过程(GP)和定量预测描述是可能的。高斯近似允许制定用于选择超参数的标准,例如权重和偏差的差异,以及学习率。这些标准依赖于为深神经网络定义的临界概念。在这项工作中,我们描述了一种新的诊断(理论上和凭经验)这种关键性的新方法。为此,我们介绍了网络的部分雅各者,定义为在Lay $ L_0 <L $中的Preactivation中的Preactivation中的常见率。当网络架构涉及许多不同的层时,这些数量特别有用。我们讨论了部分雅可比人的各种属性,例如他们的缩放,深度和与神经切线内核(NTK)的关系。我们派生了部分雅典人的复发关系,并利用它们来分析深层MLP网络的关键性(且没有)Playernorm。我们发现归一化层改变了超参数和临界指数的最佳值。我们认为在应用开始时,PlayerNorm更稳定,而不是由于相关深度较大的激活。
translated by 谷歌翻译
与基于现代聚类算法的完全监督的REID方法相比,未经监督的人重新识别(U-Reid)最近达到了竞争性能。然而,这种基于聚类的方案对大规模数据集来说变得对计算方式。如何探讨如何有效利用具有有限计算资源的无限未标记的数据,以便更好地进行更好的U-Reid。在本文中,我们首次尝试大规模U-Reid并提出一个“大型任务的小数据”范式被称为Meta聚类学习(MCL)。 MCL仅通过群集伪标记整个未标记数据的子集,以节省第一期训练的计算。之后,被学习的集群中心称为我们的MCL中的元原型,被视为代理注释器,以便轻松注释其它未标记数据以进一步抛光模型。为了缓解抛光阶段的潜在嘈杂的标签问题,我们强制执行两个精心设计的损失限制,以保证境内统一的一致性和相互识别的强烈相关性。对于多个广泛使用的U-REID基准测试,我们的方法显着节省了计算成本,同时与先前作品相比,实现了可比或更好的性能。
translated by 谷歌翻译
正确分类对抗性示例是安全部署机器学习模型的必不可少但具有挑战性的要求。据抢救模型甚至是最先进的离职训练的模型,在CIFAR-10上努力超过67%的强大测试精度,这远非实用。互动的互补方法是引入拒绝选项,允许模型不返回对不确定输入的预测,自信是常用的确定性代理。随着这个例程,我们发现置信度和纠正的置信度(R-Con)可以形成两个耦合的拒绝度量,这可以从正确分类的次数中可以证明错误分类的输入。这种有趣的属性揭示了使用偶联策略来更好地检测和抑制对抗性实例。我们在包括自适应攻击的若干攻击下,在CiFar-10,CiFar-10-C和CiFar-100上评估我们的整流拒绝(RR)模块,并证明RR模块与改善稳健性的不同的对抗训练框架兼容额外的计算。代码可在https://github.com/p2333/Rectified-re注意到。
translated by 谷歌翻译
布换人员重新识别(CC-REID)旨在在长时间匹配不同地点的同一个人,例如,超过日子,因此不可避免地满足换衣服的挑战。在本文中,我们专注于处理更具有挑战性的环境下的CC-Reid问题,即,只有一个图像,它可以实现高效和延迟的行人确定实时监控应用。具体而言,我们将步态识别作为辅助任务来驱动图像Reid模型来通过利用个人独特和独立布的步态信息来学习布不可知的表现,我们将此框架命名为Gi-Reid。 Gi-Reid采用两流架构,该架构由图像Reid-Stream和辅助步态识别流(步态流)组成。在推理的高计算效率中丢弃的步态流充当调节器,以鼓励在训练期间捕获捕获布不变的生物识别运动特征。为了从单个图像获取时间连续运动提示,我们设计用于步态流的步态序列预测(GSP)模块,以丰富步态信息。最后,为有效的知识正则化强制执行两个流的高级语义一致性。基于多种图像的布更换Reid基准测试的实验,例如LTCC,PRCC,Real28和VC衣服,证明了GI-REID对最先进的人来说。代码在https://github.com/jinx-ustc/gi -reid提供。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译